Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique[1]. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal[2],[3],[4],[5],[6].
↑P. R. Montague, P. Dayan et T. J. Sejnowski, « A framework for mesencephalic dopamine systems based on predictive Hebbian learning », The Journal of Neuroscience, vol. 16, no 5, , p. 1936–1947 (ISSN0270-6474, PMID8774460, DOI10.1523/JNEUROSCI.16-05-01936.1996)
↑P.R. Montague, P. Dayan, S.J. Nowlan, A. Pouget et T.J. Sejnowski, « Using aperiodic reinforcement for directed self-organization », Advances in Neural Information Processing Systems, vol. 5, , p. 969–976 (lire en ligne)
↑P. R. Montague et T. J. Sejnowski, « The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms », Learning & Memory, vol. 1, no 1, , p. 1–33 (ISSN1072-0502, PMID10467583)
↑T.J. Sejnowski, P. Dayan et P.R. Montague, « Predictive hebbian learning », Proceedings of Eighth ACM Conference on Computational Learning Theory, , p. 15–18 (DOI10.1145/230000/225300/p15-sejnowski, lire en ligne)